16 research outputs found

    Bandit algorithms for data extraction on social media

    No full text
    Dans cette thĂšse, nous nous intĂ©ressons au problĂšme de la collecte de donnĂ©es en temps rĂ©el dans les mĂ©dias sociaux. En raison des diffĂ©rentes limitations imposĂ©es par ces mĂ©dias, mais aussi de la quantitĂ© trĂšs importante de donnĂ©es, il n’est pas envisageable de collecter la totalitĂ© des donnĂ©es produites par des sites tels que Twitter. Par consĂ©quent, pour ĂȘtre en mesure de rĂ©colter des informations pertinentes, relativement Ă  un besoin prĂ©dĂ©fini, il est nĂ©cessaire de se focaliser sur un sous-ensemble des donnĂ©es existantes. Dans ce travail, nous considĂ©rons chaque utilisateur d’un rĂ©seau social comme une source de donnĂ©es pouvant ĂȘtre Ă©coutĂ©e Ă  chaque itĂ©ration d’un processus de collecte, en vue de capturer les donnĂ©es qu’elle produit. Ce processus, dont le but est de maximiser la qualitĂ© des informations rĂ©coltĂ©es, est contraint Ă  chaque pas de temps par le nombre d’utilisateurs pouvant ĂȘtre Ă©coutĂ©s simultanĂ©ment. Le problĂšme de sĂ©lection du sous-ensemble de comptes Ă  Ă©couter au fil du temps constitue un problĂšme de dĂ©cision sĂ©quentielle sous contraintes, que nous formalisons comme un problĂšme de bandit avec sĂ©lections multiples. Dans cette optique, nous proposons plusieurs modĂšles visant Ă  identifier en temps rĂ©el les utilisateurs les plus pertinents. Dans un premier temps, le cas du bandit dit stochastique, dans lequel chaque utilisateur est associĂ© Ă  une distribution de probabilitĂ© stationnaire, est Ă©tudiĂ©. Par la suite, nous Ă©tudions deux modĂšles de bandit contextuel, l’un stationnaire et l’autre non stationnaire, dans lesquels l’utilitĂ© de chaque utilisateur peut ĂȘtre estimĂ©e de façon plus efficace en supposant une certaine structure, permettant ainsi de mutualiser l’apprentissage. En particulier, la premiĂšre approche introduit la notion de profil, qui correspond au comportement moyen de chaque utilisateur. La seconde approche prend en compte l’activitĂ© d’un utilisateur Ă  un instant donnĂ© pour prĂ©dire son comportement futur. Pour finir, nous nous intĂ©ressons Ă  des modĂšle permettant de prendre en compte des dĂ©pendances temporelles complexes entre les utilisateurs, grĂące Ă  des transitions entre Ă©tats cachĂ©s du systĂšme d’une itĂ©ration Ă  la suivante. Chacune des approches proposĂ©es est validĂ©e sur des donnĂ©es artificielles et rĂ©elles.In this thesis, we study the problem of real time data capture on social media. Due to the different limitations imposed by those media, but also to the very large amount of information, it is not possible to collect all the data produced by social networks such as Twitter. Therefore, to be able to gather enough relevant information related to a predefined need, it is necessary to focus on a subset of the information sources. In this work, we focus on user-centered data capture and consider each account of a social network as a source that can be listened to at each iteration of a data capture process, in order to collect the corresponding produced contents. This process, whose aim is to maximize the quality of the information gathered, is constrained at each time step by the number of users that can be monitored simultaneously. The problem of selecting a subset of accounts to listen to over time is a sequential decision problem under constraints, which we formalize as a bandit problem with multiple selections. Therefore, we propose several bandit models to identify the most relevant users in real time. First, we study of the case of the so-called stochastic bandit, in which each user corresponds to a stationary distribution. Then, we introduce two contextual banditmodels, one stationary and the other non stationary, in which the utility of each user can be estimated more efficiently by assuming some underlying structure in the reward space. In particular, the first approach introduces the notion of profile, which corresponds to the average behavior of each user. On the other hand, the second approach takes into account the activity of a user at a given instant in order to predict his future behavior. Finally, we are interested in models that are able to take into account complex temporal dependencies between users, with the use of a latent space within which the information transits from one iteration to the other. Moreover, each of the proposed approaches is validated on both artificial and real datasets

    Algorithmes de bandits pour la collecte d’informations en temps rĂ©el dans les rĂ©seaux sociaux

    No full text
    In this thesis, we study the problem of real time data capture on social media. Due to the different limitations imposed by those media, but also to the very large amount of information, it is not possible to collect all the data produced by social networks such as Twitter. Therefore, to be able to gather enough relevant information related to a predefined need, it is necessary to focus on a subset of the information sources. In this work, we focus on user-centered data capture and consider each account of a social network as a source that can be listened to at each iteration of a data capture process, in order to collect the corresponding produced contents. This process, whose aim is to maximize the quality of the information gathered, is constrained at each time step by the number of users that can be monitored simultaneously. The problem of selecting a subset of accounts to listen to over time is a sequential decision problem under constraints, which we formalize as a bandit problem with multiple selections. Therefore, we propose several bandit models to identify the most relevant users in real time. First, we study of the case of the so-called stochastic bandit, in which each user corresponds to a stationary distribution. Then, we introduce two contextual banditmodels, one stationary and the other non stationary, in which the utility of each user can be estimated more efficiently by assuming some underlying structure in the reward space. In particular, the first approach introduces the notion of profile, which corresponds to the average behavior of each user. On the other hand, the second approach takes into account the activity of a user at a given instant in order to predict his future behavior. Finally, we are interested in models that are able to take into account complex temporal dependencies between users, with the use of a latent space within which the information transits from one iteration to the other. Moreover, each of the proposed approaches is validated on both artificial and real datasets.Dans cette thĂšse, nous nous intĂ©ressons au problĂšme de la collecte de donnĂ©es en temps rĂ©el dans les mĂ©dias sociaux. En raison des diffĂ©rentes limitations imposĂ©es par ces mĂ©dias, mais aussi de la quantitĂ© trĂšs importante de donnĂ©es, il n’est pas envisageable de collecter la totalitĂ© des donnĂ©es produites par des sites tels que Twitter. Par consĂ©quent, pour ĂȘtre en mesure de rĂ©colter des informations pertinentes, relativement Ă  un besoin prĂ©dĂ©fini, il est nĂ©cessaire de se focaliser sur un sous-ensemble des donnĂ©es existantes. Dans ce travail, nous considĂ©rons chaque utilisateur d’un rĂ©seau social comme une source de donnĂ©es pouvant ĂȘtre Ă©coutĂ©e Ă  chaque itĂ©ration d’un processus de collecte, en vue de capturer les donnĂ©es qu’elle produit. Ce processus, dont le but est de maximiser la qualitĂ© des informations rĂ©coltĂ©es, est contraint Ă  chaque pas de temps par le nombre d’utilisateurs pouvant ĂȘtre Ă©coutĂ©s simultanĂ©ment. Le problĂšme de sĂ©lection du sous-ensemble de comptes Ă  Ă©couter au fil du temps constitue un problĂšme de dĂ©cision sĂ©quentielle sous contraintes, que nous formalisons comme un problĂšme de bandit avec sĂ©lections multiples. Dans cette optique, nous proposons plusieurs modĂšles visant Ă  identifier en temps rĂ©el les utilisateurs les plus pertinents. Dans un premier temps, le cas du bandit dit stochastique, dans lequel chaque utilisateur est associĂ© Ă  une distribution de probabilitĂ© stationnaire, est Ă©tudiĂ©. Par la suite, nous Ă©tudions deux modĂšles de bandit contextuel, l’un stationnaire et l’autre non stationnaire, dans lesquels l’utilitĂ© de chaque utilisateur peut ĂȘtre estimĂ©e de façon plus efficace en supposant une certaine structure, permettant ainsi de mutualiser l’apprentissage. En particulier, la premiĂšre approche introduit la notion de profil, qui correspond au comportement moyen de chaque utilisateur. La seconde approche prend en compte l’activitĂ© d’un utilisateur Ă  un instant donnĂ© pour prĂ©dire son comportement futur. Pour finir, nous nous intĂ©ressons Ă  des modĂšle permettant de prendre en compte des dĂ©pendances temporelles complexes entre les utilisateurs, grĂące Ă  des transitions entre Ă©tats cachĂ©s du systĂšme d’une itĂ©ration Ă  la suivante. Chacune des approches proposĂ©es est validĂ©e sur des donnĂ©es artificielles et rĂ©elles
    corecore